Apache Spark 编辑
Apache Spark是一个开源丛集运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Apache HadoopMapReduce会在执行完工作后将中介资料存放到磁盘中,Spark使用了内存内运算技术,能在资料尚未写入硬盘时即在内存内分析运算。Spark在内存内执行程式的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是执行程式于硬盘时,Spark也能快上10倍速度。Spark允许用户将资料加载至丛集内存,并多次对其进行查询,非常适合用于机器学习算法。
8
图片 0 图片
评论 0 评论
匿名用户 · [[ show_time(comment.timestamp) ]]
[[ nltobr(comment.content) ]]
相关
Apache Beam是一个开源统一编程模型,用于定义和执行数据处理管道,包括ETL、批处理和流式处理。 Beam流水线是使用提供的SDK之一定义的,并在Beam支持的一个运行器中执行,包括Apache Apex、Apache Flink、Apache Gearpump、Apache Samza、Apache Spark和Google Cloud Dataflow。
XGBoost 是一个开源软件函式库,它为 C++、Java、Python、
R语言、和Julia提供了一个梯度提升技术框架,适用于Linux、Microsoft Windows、和
MacOS。 根据项目的描述,它的目的在于提供一个"可扩展、可移植和分布式梯度提升库"。 XGBoost除了可以在单一机器上运行,也支持运行在分布式框架Apache Hadoop、Apache Spark、Apache Flink。
近几年,由于这个算法受到许多在机器学习竞赛中获奖团队的青睐,因而受到了广泛的欢迎和关注。
Databricks是一家美国企业软件公司,由Apache Spark的创建者创立。Databricks 开发了一个基于 Web 的平台,用于与 Spark 一起工作,提供自动化集群管理和IPython风格的笔记本。
Deeplearning4j是为Java和Java虚拟机编写的开源深度学习库,是广泛支持各种深度学习算法的运算框架。Deeplearning4j可以实施的技术包括受限玻尔兹曼机、深度置信网络、深度自动编码器、堆叠式降噪自动编码器、循环神经张量网络,以及Word2vec、doc2vec和GloVe。这些算法全部包括分布式并行版本,与Hadoop和Apache Spark集成。Skymind是Deeplearning4j的商业支持机构。
Jetty是一个纯粹的基于Java的网页服务器和Java ServletWeb容器。尽管网页服务器通常用来为人们呈现文档,但是Jetty通常在较大的软件框架中用于计算机与计算机之间的通信。Jetty作为Eclipse基金会的一部分,是一个自由软件和开放源代码项目。该网页服务器被用在Apache ActiveMQ、Alfresco、Apache Geronimo、Apache Maven、Apache Spark、Google App Engine、Eclipse、FUSE、Twitter's Streaming API、Zimbra等产品上。Jetty也是Lift、Eucalyptus、Red5、Hadoop、I2P等开源项目的服务器。
Jetty支持最新的Java Servlet API,支持SPDY和WebSocket协议。